Telegram Group & Telegram Channel
Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/knowledge_accumulator/284
Create:
Last Update:

Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/284

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

Knowledge Accumulator from us


Telegram Knowledge Accumulator
FROM USA